La Respuesta de Google: La Batalla de Avances en IA de los Proyectos Astra, Veo y Gemini
Esta es la respuesta de Google a OpenAI.
Una IA general, una IA que se puede usar verdaderamente a diario, sería embarazoso celebrar una conferencia de prensa si no es así en este momento.
En la madrugada del 15 de mayo, comenzó oficialmente la conferencia de desarrolladores Google I/O, el "Festival de Primavera del Mundo Tecnológico". ¿Cuántas veces se mencionó la inteligencia artificial en los 110 minutos del discurso principal? Google lo ha contado:
Sí, se habla de IA cada minuto.
La competencia de la IA generativa ha alcanzado recientemente un nuevo clímax, y el contenido de esta conferencia I/O gira naturalmente en torno a la inteligencia artificial.
“Hace un año en este escenario, compartimos por primera vez nuestros planes para el modelo grande multimodal nativo, Gemini. Marcó la nueva generación de I/O”, dijo el CEO de Google, Sundar Pichai. “Hoy, esperamos que todos puedan beneficiarse de la tecnología de Gemini. Estas características innovadoras se infiltrarán en la búsqueda, imágenes, herramientas de productividad, sistemas Android y muchos otros aspectos.”
Actualmente, tanto 1.5 Pro como 1.5 Flash están disponibles para vista previa pública y ofrecen una ventana de contexto de 1 millón de tokens en Google AI Studio y Vertex AI. Ahora, 1.5 Pro también proporciona una ventana de contexto de 2 millones de tokens para desarrolladores que usan la API y clientes de Google Cloud a través de una lista de espera.
Además, Gemini Nano se ha expandido de entrada de texto puro a entrada de imagen. A finales de este año, comenzando con Pixel, Google lanzará Gemini Nano multimodal. Esto significa que los usuarios móviles no solo pueden procesar la entrada de texto, sino también comprender más información contextual, como visuales, sonido y lenguaje hablado.
La familia Gemini da la bienvenida a un nuevo miembro: Gemini 1.5 Flash
El nuevo 1.5 Flash ha sido optimizado para velocidad y eficiencia.
Nueva Generación de Modelo Grande de Código Abierto Gemma 2
Hoy, Google también lanzó una serie de actualizaciones para el modelo grande de código abierto Gemma: Gemma 2 está aquí.
Como se presentó, Gemma 2 utiliza una nueva arquitectura destinada a lograr un rendimiento y eficiencia innovadores, los nuevos parámetros de modelo de código abierto son de 27B.
Cuando se trata de videos largos, Veo puede producir videos de 60 segundos o incluso más. Puede hacerlo a través de un solo aviso o proporcionando una serie de avisos que juntos cuentan una historia. Esto es clave para la aplicación de modelos de generación de video en la producción de cine y televisión.
Veo se basa en el trabajo de Google en la generación de contenido visual, incluyendo Red de Consultas Generativas (GQN), DVD-GAN, Imagen-a-Vídeo, Phenaki, WALT, VideoPoet, Lumiere, entre otros.